Оценка результатов А/В - теста

Основной целью данного исследования является оценка результатов А/В - теста.

Импортируем нужные библиотеки.

Сохраняем все датасеты.

Предобработка

Проверим датасеты на пропуски, дубликаты и посмотрим типы данных.

В датасете отсутствуют дубликаты и пропущенные значения, но необходимо преобразовать типы данных в дву столбцах с датами.

Пропущенных значений, как и дубликатов, не обнаружено. Изменим тип данных в столбце с датой.

Дубликатов не обнаружено, но в столбце details много пропущенных значений. Посмотрим, какие существуют типы событий и дополнительные данные о событии.

Очень похоже, что в столбце details хранится информация только о стоимости покупок. Проверим эту теорию.

Делаем вывод, что в столбце details хранится информация только о сумме покупки. Остальные события никакими дополнительными данными не обладают. Отсутсвующих значений очень много, поэтому удалять их не будем. Заменять тоже не будем, так как непонятно, каким образом это сделать.

Отсутствующих значений и дубликатов нет. Типы данных заменять не будем.

Оценка корректности проведения теста

В таблице участников тестов проведем проверку на пересечения пользователей в группах и удалим данные участников конкурирующего теста, так как мы не обладаем информацией о возможном влиянии другого теста на этот. Можно было бы посмотреть на распределение пользователей групп А и Б между смежными тестами, но вероятность равномерно распределения очень мала, поэтому просто удалим данные.

Проверим соответсвие дат.

Дата запуска соответствует ТЗ, а дата остановки набора новых пользователей - нет. По ТЗ дата остановки: 2020-12-21, а в данных есть пользователи, зарегестрировавшиеся 23-12-2020. Это критичный для иссследования момент, поэтому удалим таких пользователей.

Посмотрим на даты совершенных событий.

Видим, что на момент 01-01-2020 пользователи не совершали никаких событий. Получается, что некоторые из зарегестрировавшихся пользователей не соответствуют тредованиям ТЗ о четырнадцатидневном лайфтайме. Это может негативно сказаться на результатах теста.

Скорее всего, на активность повлияли новогодние праздники. Можно сделать предположение, что проводить А/В - тестирование в преддверии праздников - не самая лучшая идея, т.к. это событие может сильно влиять на поведение пользователей.

Сразу же проверим, не совпадает ли время проведения теста с другими маркетинговыми событиями.

Во время проведения А/В - теста в Евросоюзе проводилась акция, связанная с новогодними праздниками. Второй повод задуматься о качестве результатов тестирования новой платежной воронки.

Посмотрим на отношение количества пользователей по регионам.

Пользователи из Евросоюза составляют почти 75% от всех, кто зарегестрировался в период с 7 по 21 декабря 2020 года.

Объединим таблицы и еще раз посмотрим на количество пользователей из Евросоюза.

В итоговой таблице количество пользователей из EU составляет 12% от количества всех новых зарегестрированных пользователей из EU.

Мы видим, что event_dt появились пропуски, это означает, что в тест попали пользователи, которые зарегестрировались, но никаких действий в системе больше не совершали. Посмотрим на распределение этих пользователей между группами и на основании получаенных результатов примем решение, что с ними делать.

На графике видно, что до 13-12-2020 распределение таких пользователей было более или менее равномерным, но затем в группе А неактивные пользователи исчезли, а в группе В они все еще присутствуют, внося серьезный дисбаланс. На естественный отсев это не похоже.

Заменим лайфтайм на нулевое значение, чтобы не потерять данные при последующей фильтрации.

Посчитаем лайфтаймы событий.В ТЗ указано, что нужно учитывать события, которые были совершены пользователями в первые 14 дней с момена регистрации. Пропущенные значение заменим на ноль, чтобы не потерять данные. Отфильтруем датасет, чтобы в нем остались только те юзеры, лайфтайм которых не превышает 14 дней.

Подводя итог, можно сделать вывод о некорректном проведении теста. Пользователи пересекаются с конкурирующим тестом и нет достоверной информации о влиянии этого теста на наш. Тест проводился в преддверии новогодних праздников и совпал с другими маркетинговыми исследованиями. К тому же, фактическая дата окончания теста не совпадает с планируемой. Все это может негативно сказаться на результате тестирования новой платежной воронки. Фактически тест закончился раньше, чем предполагалось, это означает, что не все пользователи имеют четырнадцатидневный лайфтайм, что тоже может являться причиной искажения результатов. После всех проведенных фильтраций осталось 5925 уникальных пользователей, а ожидалось 6000. Плюс в группе В наблюдается больше количество пользователей, которые не совершали никаких событий после момента регистрации.

EDA

Распределение числа событий в выборках по дням.

Количество событий в группе А намного больше, чем в группе В.

Построим воронку для изучения конверсий в группах.

Мы видим, что в столбце с событиями не отображается момент регистрации, поэтому отдельно посчитаем конверсию в авторизацию.

Добавим данные в таблицу конверсии.

На странице корзины оказалось меньше пользователей, чем тех, кто совершил покупку. Возможно, это обосновано тем, что есть функция быстрого заказа товара, где в корзину переходить необязательно.

Поправим таблицу конверсии и построим воронку.

Воронка показывает, что в группе В очень маленькая конверсия в авторизацию, это можно объяснить большим количество неактивных пользователей. Наверное имеет смысл поискать какие-то технические ошибки, потому что у меня нет идей, почему такая плохая конверсия.

Если смотреть конверсию, начиная с авторизации и отбросить всех тех пользователей, которые после регистрации не совершали событий, то картина получается более оптимистичной. Но все же нет предполагаемого роста конверсии группы В, она даже меньше, чем в контрольной группе.

Посмотрим на распределение событий в группах.

А также посмотрим на количество событий в разрезе каждого пользователя.

Мы видим, что события на пользователя в группах распределены неравномерно. В группе А пользователи совершили событий в среднем в 4 раза больше. Если смотреть в контексте каждого отдельного пользователя в группах, то в группе А каждый пользователь в среднем совершает в районе 4 событий, а в группе В - 2 события.

Оценка результатов А/В - тестирования

Попытаемся провести статистический тест на проверку равенства долей. Обозначим гипотезы.

Нулевая гипотеза: между долями разницы нет. Альтернативая: разница есть. Чтобы не увеличивать вероятность получения ошибки первого рода, применим поправку Бомферрони, разделив alpha на 3.

Обозначим некоторые особенности данного теста:

Тест показал, что в 2 из 3 проверок отвергнуть нулевую гипотезу о равенстве долей не вышло. Статистически значимых различий в выборках нет.

Значит нововведение повлияло на пользователей в рамках просмотра страницы продукта. В группе A - 65% конверсия, а в группе B - 57% и такое различие статистическо значимо по этому критерию. А в остальных случаях (этапах) существенной разницы в конверсии замечено не было. Т.е. нововведение ухудшило конверсию в просмотры товара, но на покупки в целом не повлияло.

Итоги

В ходе исследования обнаружилось, что тест был проведен некорректно по нескольким параметрам:

Исследовательский анализ данных показал следующие результаты:

Статистические тесты показали, что между выборками в 2 из 3 случаев не существует значимых различий.

В результате можно сделать сделать вывод,что тестирование изменений, связанных с внедрением улучшенной рекомендательной системы, проходило некорректно. Пытаться хоть как-то интерпретировать полученные результаты будет неправильно.